


阐述了FFN层的几个问题，

第一，是FFN层参数量巨大，大概占了整个模型参数量的三分之二左右。

第二，FFN层的激活存在较大的稀疏性，也就是针对某些问题的输入，FFN层只有部分的参数是有用的。